DeepseekOCR到底做了什么?
文字识别工具很多,但 DeepseekOCR 为什么突然火了?答案在于它不仅能“看清”,还能“看懂”。从票据到文档,从图片到表格,它正在让信息处理变得更轻松。
patch token vision deepseekocr 2025-11-15 15:37 2
文字识别工具很多,但 DeepseekOCR 为什么突然火了?答案在于它不仅能“看清”,还能“看懂”。从票据到文档,从图片到表格,它正在让信息处理变得更轻松。
patch token vision deepseekocr 2025-11-15 15:37 2
Anthropic官方发布了一篇文章,介绍了MCP的重大革新,相当于重构了。
你有没有过这样的经历?项目上线前突然发现 Token 存储出了问题 —— 要么刷新页面后用户直接登出,要么被测试测出 XSS 漏洞风险,紧急修改时还得兼顾兼容性,最后加班到半夜才搞定?
henry 发自 凹非寺量子位 | 公众号 QbitAI用鼠标和键盘打游戏的智能体,这就来了!它不仅能在《我的世界》中和普通玩家一较高下。已关注 关注重播分享赞关闭观看更多更多退出全屏切换到竖屏全屏退出全屏量子位已关注分享视频,时长00:450/000:00/
你有没有过这样的经历?自己开发的项目上线后,突然收到用户反馈:“我在你们平台选了半小时商品,填完收货地址点提交,直接跳登录页了!之前填的全没了!” 看到这条反馈时,你是不是瞬间头皮发麻?
按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗?最近,越来越多的研究者对此提出质疑。其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)。
Hugging Face Spaces 提供了3种模板,可以很方便的来部署你的应用。
想象一下,你有一份 200 页的技术报告 ,现在要问大模型一个问题:“第二季度的销售增长是多少?”
核心功能:将重复性工作流程(如公司品牌风格、代码规范、报告格式)打包成可复用的指令,让 Claude 能自动、可靠地完成任务,无需每次都重复提醒。工作原理:一个 Skill 就是一个带说明书 (SKILL.md) 的文件夹。Claude只在需要时才会加载完整的
大语言模型(LLMs)推理能力近年来快速提升,但传统方法依赖大量昂贵的人工标注思维链。中国科学院计算所团队提出新框架PARO,通过让模型学习固定推理模式自动生成思维链,只需大模型标注1/10数据就能达到全量人工标注的性能。这种方法特别适合像金融、审计这样规则清
在大模型狂飙突进的时代,真正的瓶颈并非算法,而是**“上下文”与“算力”的矛盾**。当模型能理解的上下文被限制在几百万个token以内,信息越多,成本越高,效率越低。DeepSeek团队提出的最新研究——DeepSeek-OCR(Optical Compres
大语言模型(LLMs)推理能力近年来快速提升,但传统方法依赖大量昂贵的人工标注思维链。中科院计算所团队提出新框架PARO,通过让模型学习固定推理模式自动生成思维链,只需大模型标注1/10数据就能达到全量人工标注的性能。这种方法特别适合像金融、审计这样规则清晰的
10月25日,高通在夏威夷骁龙峰会发布新一代PC平台骁龙 X Elite 2,现场演示用一台14英寸轻薄本本地跑通130亿参数的大模型,Stable Diffusion 1秒出图,且功耗比上一代下降18%。
示例:对于字符串 "用户ID: ${user_id}, 用户名: ${username}",findalls会找到两个变量:user_id和username,然后从cache中取出对应的值,返回{“user_id”: cache[“user_id”], “us
本研究由快手科技 Klear 语言大模型团队完成,核心作者苏振鹏,潘雷宇,吕民轩,胡文凭,张富峥,周国睿等。快手 Klear 语言大模型团队聚焦在基础语言大模型研发、Agent RL 等前沿技术创新等方向,积累务实的探索 AGI 的能力边界,并不断推进 AI
你需要知道的结论先行:DeepSeek-OCR用“上下文光学压缩”把页面渲成少量视觉token→10×压缩下OCR约97%可用,20×场景在容错业务下仍有约60%可用率。下面一次性讲清技术、实测、工程与落地策略。
蚂蚁开源团队出了个叫Ring-1T的模型,直接在2025年AIME测试里拿了93.4分,这个成绩快赶上人类顶尖选手了。
以128k token窗口为例,传统长文本处理单轮算力成本近0.2元、延迟达数秒,而两款模型通过“文本→高密度图像→视觉Token”三级压缩,将30页文档压进100个视觉Token,压缩率达10-60倍。
这些数据传递了两个重要信息。第一,10倍压缩是一个"黄金分界线",在此范围内模型可以实现接近无损的文字解码,未来有望通过文本到图像的方法实现近乎10倍的无损上下文压缩。第二,即便压缩比提升到20倍,模型仍能保持约60%的准确率,这为研究历史长上下文压缩和大语言
10月20号上午,DeepSeek干了件挺炸圈的事,直接开源了个叫DeepSeek-OCR的模型,还首次抛出“上下文光学压缩”这么个新说法。